BSA-seq性状定位技术流程 | BSA专题
近期小编将集中为大家讲解BSA(Bulked Segregant Analysis,集团分离分析法)相关知识,包括BSA简介,分子标记技术,质量、数量性状和作图群体,基因、QTL定位,BSA性状定位研究思路及常见问题及解答等,每天5分钟,轻松学习BSA相关知识~
话不多说,进入今天的专题——BSA-seq性状定位技术流程介绍。
往期文章速览:
首先,使用DNA提取试剂盒采用标准流程提取DNA。极端性状的2个亲本可直接提取DNA并质检,而子代样本在提取DNA并质检后还要进行等量混合的操作,构建混池样本(每个池建议至少20个样本以上)。DNA样品的检测主要包括3种方法:
(1) 琼脂糖凝胶电泳分析DNA的纯度和完整性;
(2) Nanodrop检测DNA的纯度(OD260/280比值);
(3) Qubit对DNA浓度进行精确定量;
样本DNA要求:每次建库需要准备样品2μg,至少提供2次制备的量。样品浓度>20ng/μl;OD260/280介于1.8~2.0之间,无肉眼可见污染;基因组完整、无降解,电泳中DNA主带应大于23kb。
样品选择:对于植物样品建议选取黑暗培养的黄化苗或嫩苗;动物样品应选择肌肉、血等脂肪含量较少的组织进行取样。
检验合格的DNA样品通过片段化试剂盒打断成长度为350bp的片段进行建库。DNA片段经末端修复、加ployA尾、加测序接头、纯化、PCR扩增等步骤完成整个文库制备。文库构建完成后,先使用Qubit2.0进行初步定量,随后使用AgilentBioAnalyzer 2100对文库的插入片段长度进行检测,长度符合预期后,使用qPCR的方法对文库的有效浓度进行准确定量以保证文库质量。文库合格后,进入上机测序阶段。测序平台为Illumina Hiseq 4000,测序模式为PE150。建库测序的具体流程如下图所示:
简要概述如下:
(1)数据质控
获得原始测序序列(Sequenced Reads)后,进行接头序列及polyN,polyA等序列的过滤,得到clean data。
(2)与参考基因组比对
过滤后的valid reads 测序数据通过BWA比对到参考基因组。然后用SAMtools对比对结果进行排序;再用Picard标记重复序列 (mark duplicate reads)。Mark duplicate reads这一过程是把一个DNA片段在PCR 扩增后的多个相同的片段进行标记。被标记的reads不会用于后续处理;如果重复reads用于后续处理,会导致在变异检测的结果中出现假阳性。
(3)SNP,InDel检测
在标记过重复序列后需要根据BWA比对结果提供的CIGAR(Compact Idiosyncratic Gapped Alignment Report) 值进行InDel的重新比对,BWA对错配 (mismatch) 特别是InDel附近或者连续出现的多聚核苷酸(比如:连续的多个T或者A等)的容忍度相对较高,这样会产生一些错误的标记,纠正这些位点对于后续的SNP和InDel分析有着非常重要的作用。使用GATK软件中的InDel Realignment模块进行InDel的重新比对(Realignment),将InDel (Insertion-Deletion)附近的比对错误率降到最低。
同时需要注意的是,碱基的测序质量(Quality scores)对于分析也是至关重要的,然而测序仪器本身会带来一些系统性偏差(Systematic biases),而这些偏差会严重影响到下游的分析。举例说明,在reads碱基质量值被校正之前,要保留质量值在Q25以上的碱基,但是实际上质量值在Q25 的这些碱基的错误率在1%,也就是说质量值只有Q20,这样就会对后续的变异检测的可信度造成影响。还有,在边合成边测序的测序过程中,在reads末端碱基的错误率往往要比起始部位更高。另外,AC 的质量值往往要低于TG。因此需要调用GATK软件中的Base Recalibration 进行碱基的质量值校正,校正过后的序列测序质量会更具均一性和可靠性。注意:在排机测序过程中,可能会存在补测样本或者同一个样本在不同的lane测序的情况,此类情况在进行Base Recalibration分析时需要按lane的情况分别进行校正。否则可能会影响到碱基校正 (Base recalibration)结果的正确性与有效性。
经过上述步骤的前期处理后,接下来进行突变位点的检测(variant calling),在突变位点检测的过程中如何区分哪些是真正的突变位点(Genetic variant)而不是可能的测序误差(Randommachine noise)是判断的关键。GATK提供了两种方法:一种是不基于模型的UnifiedGenotyper,此方法不考虑相邻碱基的影响。另外一种是基于local de-novo模型的HapoltypeCaller,此方法首先会构建一个DeBruijn graphs,在此基础上采用PairHMM模型进行单倍型的预测并进行突变位点的可靠性判断,从而更加准确地检测突变位点。
目前使用率相对较高的UnifiedGenotyper工具,结合前期的InDel realignment和Base recalibration可进行SNP的准确检测。
(4)SV检测
对基因组上的SV进行分析。使用Lumpy算法进行结构性变异(structure variation,sv)的鉴别。
(5)CNV检测
对基因组上的CNV进行分析。利用Control-Freec算法可以对于每个发生变化的区域推测拷贝数。
(6)注释
编码区域(coding region)的突变可能是引起疾病发生和性状改变的关键区域,因此对突变位点进行生物学信息的注释非常重要。采用SnpEff软件/Annovar软件来进行突变位点的结构注释。
(7)候选区间定位
依据检测出的SNP位点,计算混池样本的SNP-index,并且计算两个极端性状混池的频率差值。挑选显著差异的区域,定位候选区间。
(8)候选区间内基因功能注释
对于候选区间内的候选基因,进行GO和KEGG功能注释。
(9)候选区间内SNP和InDel的分布和类型统计
将候选区间内的SNP和InDel与注释基因之间的关系进行分析,统计在双亲或不同子代池间,有哪些基因的编码区发生了非同义替换或发生了有变异引起的提前终止,有哪些基因的调控区域(启动子区域)在双亲间发生了变异。
今天的内容分享完啦,大家记得收藏好慢慢学习哦~
扩展阅读推荐
BMC Genomics | BSA快速鉴定菜豆抗炭疽病基因